# Diffbot

> [Diffbot](https://docs.diffbot.com/docs) 是一套基于机器学习的产品，可以轻松地对网络数据进行结构化和集成。

## 安装和设置

[获取免费的 Diffbot API 令牌](https://app.diffbot.com/get-started/)，并按照[这些说明](https://docs.diffbot.com/reference/authentication)进行身份验证。

## 文档加载器

Diffbot 的 [Extract API](https://docs.diffbot.com/reference/extract-introduction) 是一个可以从网页中结构化和规范化数据的服务。

与传统的网络抓取工具不同，`Diffbot Extract` 不需要任何规则来读取页面上的内容。它使用计算机视觉模型将页面分类为 20 种可能的类型之一，然后将原始的 HTML 标记转换为 JSON。生成的结构化 JSON 遵循一致的[基于类型的本体论](https://docs.diffbot.com/docs/ontology)，这使得可以轻松地从具有相同模式的多个不同网络来源提取数据。

查看[使用示例](/docs/integrations/document_loaders/diffbot)。

```python
from langchain_community.document_loaders import DiffbotLoader
```

## 图表

Diffbot 的 [自然语言处理 API](https://www.diffbot.com/products/natural-language/) 允许从非结构化文本数据中提取实体、关系和语义含义。

查看[使用示例](/docs/integrations/graphs/diffbot)。

```python
from langchain_experimental.graph_transformers.diffbot import DiffbotGraphTransformer
```